FILTER MODE ACTIVE

#reinforcement learning

Найдено записей: 3

#reinforcement learning20.09.2025

Grok-4-Fast: единая модель xAI с 2M-токенным окном и встроенным RL для инструментов

'xAI выпустил Grok-4-Fast — единую prompt-управляемую модель с 2M-токенным окном и tool-use RL, которая сохраняет точность Grok-4, но использует примерно на 40% меньше токенов.'

ЧИТАТЬ →

#reinforcement learning16.09.2025

Обновляйте триллионные LLM за ~20 секунд с checkpoint-engine от MoonshotAI

'MoonshotAI выпустил checkpoint-engine — решение для обновления весов на тысячах GPU примерно за 20 секунд, полезное для RL и масштабного сервинга с минимальным простоем.'

ЧИТАТЬ →

#reinforcement learning05.09.2025

Biomni-R0: LLM с обучением через RL достигает экспертного уровня биомедицинского мышления

'Biomni-R0 использует end-to-end reinforcement learning и экспертно заданные награды для обучения 8B и 32B биомедицинских агентов, которые превосходят более крупные общие модели по многим задачам.'

ЧИТАТЬ →